Treinamento Supervisionado para Previsão de Partidas de Futebol: Uma Abordagem usando Dados de Videogames
نویسندگان
چکیده
Finding data sources for machine learning and data mining applications can be a very complicated task in some cases. Furthermore, in many applications, the data may be quite scarce. Therefore, we sought an alternative way to obtain data and information through the large and wide video game industry, an industry which has been able to collect and build so credible data that they can be used to solve real-world problems. Thus, this paper presents an approach to predict soccer match outcomes using for it the FIFA game data. 1. Introdução Um dos principais problemas enfrentados pelos cientistas em suas análises e pesquisas é a ausência de dados e informações. Além deste, outro problema igualmente preocupamente é a dificuldade de obtê-los e/ou acessá-los. Em muitos casos, tais restrições são tão severas que levam à frustração da conclusão do trabalho cientı́fico e inclusive ao abandono da própria pesquisa. Diante dessas dificuldades, o avanço e o aprimoramento de técnicas de análises de dados, aprendizado de máquina, mineração de dados, entre outras, têm contribuı́do bastante para que se consiga solucionar a carência de dados em certas aplicações. Todavia, por mais complexa que seja uma técnica, é difı́cil imaginar que ela conseguirá ter êxito lidando com a ausência de dados nas mais diversas aplicações das áreas de medicina, economia, mineração de padrões, entre outras. Dentro de economia, a área de mercados preditivos é um exemplo. Comumente conhecidos como mercados de apostas, os mercados preditivos são mercados especulativos criados com o propósito de fazer previsões para antecipar ou monitorar um provável evento futuro. E o mercado de apostas esportivas é o que vem ganhando mais adeptos a cada dia. Segundo o website Statista1, o lucro bruto do mercado desse nicho especı́fico 1http://www.statista.com/ de aposta foi de 11,5 bilhões de euros em 2012. Com isso, diversas técnicas para coletar informações úteis na previsão de eventos esportivos têm sido buscadas por apostadores e pela banca de aposta no intuito de diminuir o grau de incerteza ao predizer um resultado e, dessa maneira, aumentar o retorno do investimento. Todavia, é grande a complexidade de se prever um evento esportivo e isso pode ser explicado pela grande dificuldade de se mensurar as diversas variáveis que influenciam o próprio jogo. Caracterı́sticas especificadas de cada jogador, problemas psicológicos e fı́sicos dos jogadores, informações climáticas durante a partida são exemplos de algumas dessas variáveis. Mesmo assim, diversos trabalhos na literatura tentam solucionar o problema da previsão de partidas de futebol. Geralmente estes trabalhos se atêm a dados estatı́sticos das partidas como, quantidade de gols, número de cartões distribuı́dos, porcentagem de posse de bola, quantidade de faltas ocorridas e etc. São exemplos disso [Constantinou et al. 2013] e [Dixon and Coles 1997]. Sendo assim, na tentativa de buscar novas fontes de dados para previsão de partidas de futebol, voltamos nossos olhares para a indústria dos jogos eletrônicos, uma indústria que vem investindo milhões de dólares, ano após ano, na tentativa de proporcionar a seus usuários um experiência cada vez mais próxima à realidade. Os jogos eletrônicos podem ser usados como fonte de dados em modelagens do mundo real, e, em especial, que os dados do jogo de videogame FIFA podem ser usados para solucionar problemas de previsão de resultados de partidas de futebol. Uma vez que, para conferirem um maior realismo ao jogo, as habilidades e performances dos jogadores são mensuradas em números, essa geração de dados cria também uma quantidade de informação capaz de aumentar o conhecimento sobre o universo dos esportes e, com isso, diminuir a incerteza ao se fazer uma previsão de um evento [Cover and Thomas 2006]. Esse trabalho propõe, para isso, uma metodologia supervisionada para se prever resultados de partidas de futebol a partir de dados de caracterização dos jogadores do jogo de videogame FIFA. 2. Trabalhos Relacionados Diversos trabalhos têm utilizado métodos de inteligência computacional para fazer a predição de eventos esportivos. De fato, dado o volume de capital que gira dentro do mercado de apostas, o interesse em se modelar as ocorrências nos eventos esportivos e a busca de uma acurácia cada vez maior na predição de resultados têm levado muitos cientistas a se dedicarem a esses estudos. Nesse contexto, grande parte dos trabalhos se diferenciam em alguns aspectos: a forma de predição pretendida do resultado, tais como números de gols ou vitória-empatederrota, os modelos de parametrização adotados e as fontes de dados para previsões esportivas. Contudo, algumas caracterı́sticas permeiam diversos trabalhos na área de previsão de eventos. Uma estratégia comum encontrada em grande parte deles é o uso de diversas técnicas de inteligência artificial. Revemos na literatura o uso de diferentes algoritmos de aprendizado de máquina na previsão de resultados de jogos. Em [Joseph et al. 2006] são usadas redes bayesianas e outras técnicas de aprendizado de máquina, incluindo árvores de decisão e k-vizinhos mais próximos para a realização dessa tarefa. [Hucaljuk and Rakipović 2011] usam diversos algoritmos fazendo comparação de diferentes algoritmos de aprendizagem para prever os resultados dos jogos da Liga Europeia, tais como redes neurais artificiais, naı̈ve bayes, redes bayesianas, floresta aleatória e regressão logı́stica. Já [Tsakonas et al. 2002] utilizam lógica difusa, redes neurais artificiais e programação genética para executar a tarefa de previsão e também fazer comparações. Técnicas de programação genética também são usadas em [Cui et al. 2013], obtendo resultados bastante satisfatórios. [Constantinou et al. 2013] apresentam um estudo detalhado do mercado de apostas e explicita as razões do uso de redes bayesianas enquanto modelos não-paramétricos para alcançar bons resultados. Os autores fazem uma análise dos dados a serem usados em uma rede bayesiana para que esta apresente bons resultados e concluem que a estratégia adotada apresenta uma acurácia melhor que a apresentada por bookmakers, ou apostadores profissionais. No que tange as fontes de dados para previsões, os trabalhos que não utilizam bookmakers fazem amplo uso de estatı́sticas de jogos para melhorarem seus resultados [Dixon and Coles 1997].Além disso, na literatura há uma carência de trabalhos que busque caminhos alternativos para prever eventos esportivos, sendo o presente trabalho um precursor no uso de dados de jogos eletrônicos para modelar eventos esportivos reais. 3. Coleta de Dados e Caracterização 3.1. Coleta dos Dados Na coleta dos dados foi implementado um crawler web para minerar as informações referentes às caracterı́sticas de todos os jogadores da English Premier League. Essas informações foram retiradas do website SoFIFA2. Nesse site, os jogadores são descritos por 33 caracterı́sticas valoradas entre 0 e 100 pontos e agrupadas nos seguintes conjuntos: Ataque, Habilidade, Movimentação, Força, Mentalidade, Defesa e Goleiro (Tabela 1). Estas caracterı́sticas são usadas no videogame FIFA para simular a ação de cada jogador durante as partidas. Tabela 1. Caracterı́sticas dos Jogadores Ataque Habilidade Movimentação Força Mentalidade Defesa Goleiro Cruzamento Dribles Aceleração Força de Chute Agressividade Marcação Elasticidade Finalização Curva Pique Impulsão Interceptação Dividida em pé Manejo Precisão do Cabeceio Precisão nas Faltas Agilidade Fôlego Posicionamento Carrinho Chute Passe Curto Lançamento Reação Força Visão de Jogo Posicionamento Voleio Controle de Bola Equilı́brio Chute de Longe Pênaltis Reflexos Os resultados das partidas da English Premier League temporada 2011-2012 foram obtidos através do site http://www.football-data.co.uk e representam um conjunto de 380 partidas jogadas por 20 times. 3.2. Caracterização dos dados As Figuras 1(a) e 1(b) mostram a função de distribuição acumulada (CDF) em relação à média por time das caracterı́sticas de um jogador e subdividas por subgrupos e a correlação com as derrotas obtidas em casa de um time mandante e as vitórias ocorridas fora de casa de um time visitante. Para esses gráficos consideramos apenas, para cada time, os 4 melhores jogadores do subgrupo Ataque, isto é, os 4 jogadores com maior soma 2http://sofifa.com/players das caracterı́sticas desse subgrupo, além dos 4 melhores do subgrupo Defesa, e os 5 melhores dos de cada um dos subgrupos Habilidade, Movimentação, Força e Mentalidade. Na Figura 1(a) podemos observar que no subgrupo Ataque os times que tiveram médias superiores a 76 perdem em casa em aproximadamente 10% das partidas. Em contrapartida, a caracterı́stica Habilidade representa aproximadamente 15% das partidas para esse mesmo valor. Podemos notar ainda que as curvas seguem a dedução natural, ou seja, à medida que a média de um subgrupo de caracterı́sticas aumenta a probabilidade de um time perder em casa tende a diminuir. Isso também pode ser constatado na Figura 1(b), porém neste caso as suavidades nas curvas tendem a amplificar as probabilidades, uma vez que aumentando a média de um subgrupo de caracterı́sticas a probabilidade de ocorrer vitória fora de casa aumenta. 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 60 65 70 75 80 85 90 C D F # Media Caracteristicas Jogadores Habilidade Ataque Mentalidade Movimentação Defesa Força (a) Time Mandante Derrotas em Casa 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 60 65 70 75 80 85 90 C D F # Media Caracteristicas Jogadores Habilidade Ataque Mentalidade Movimentação Defesa Força (b) Time Visitante Vitórias Fora de Casa Figura 1. CDF das Médias das Caracterı́sticas agrupados por Times e a Correlação entre as Vitórias e Derrotas. 4. Metodologia Proposta e Resultados A metodologia constrói um modelo de previsão por meio de análise de comparação das médias das caracterı́sticas dos jogadores dos times e dos jogadores com as melhores médias das caracterı́sticas dos times. Essas médias irão balizar os padrões dos times que apresentam melhor desempenho no decorrer da temporada 2011-2012 da English Premier League. 4.1. Agrupando Features Para agrupar as features que foram usadas no processo de classificação, criou-se uma função de agregação que combina tanto caracterı́sticas individuais dos jogadores quanto médias dos times. Primeiramente, seleciona-se do subgrupo Ataque os 4 jogadores com maiores somas deste subgrupo e, de mesmo modo, 4 do subgrupo Defesa, 5 de cada um dos subgrupos Habilidade, Movimentação, Força e Mentalidade, e 1 do subgrupo Goleiro. A escolha dessas quantidades de jogadores se justifica por existirem sobreposições de caracterı́sticas em um mesmo jogador, isto é, o jogador com melhor ataque pode ser também o jogador com melhor movimentação. Testamos outras quantidades de seleção de jogadores, porém pelas nossas análises o modelo que obteve melhores resultados utilizou essa seleção de jogadores. Depois disso, para cada uma das 33 caracterı́sticas faremos uma média por time e somaremos aos valores das caracterı́sticas dos jogadores selecionados na fase anterior. Podemos sintetizar nossa função da seguinte forma: Feature ( time x ) = ∑( Top 4 Ataq ) + μ ( Ataq (time x) ) ∑( Top 4 Defe ) + μ ( Defe (time x) ) ∑( Top 5 Habil ) + μ ( Habil (time x) ) ∑( Top 5 Movi ) + μ ( Movi (time x) ) ∑( Top 5 Força ) + μ ( Força (time x) ) ∑( Top 5 Ment ) + μ ( Ment (time x) ) Melhor Goleiro + μ ( Goleiro (time x) ) Assim, cada partida irá ser representada por um total de 66 features, já que cada jogo é disputada por 2 times. 4.2. Classificação das Partidas e Resultados Para classificar os resultados das partidas (Empate, Vitória em Casa e Vitória fora de Casa) usaremos o classificador SVM [Cortes and Vapnik 1995] e a Regressão Logı́stica [McCullagh and Nelder 1989], que são modelos de treinamento supervisionado. Esses classificadores irão aprender uma função de inferência através de um conjunto de treinamento. Assim, os classificadores serão treinados por meio do 5 fold cross validation One vs All, que neste caso irá representar 80% das partidas para treino e 20% para teste. A precisão dos classificadores será dada pela média de cada fold (Tabela 2). Tabela 2. Acurácia dos Classificadores Modelo Vitória em casa Vitória fora de casa Empate Acurácia Linear SVM 76.83% 67.89% 58.94% 67.88% RBF SVM 75.52% 66.05% 58.67% 66.70% Polly SVM 75.52% 65.78% 58.68% 66.66% Regressão Logı́stica 75.29% 67.10% 58.68% 67.01% Podemos observar que o classificador Linear SVM obteve um bom desempenho para classificar os dados, alcançando uma média de 67.88% de precisão. Observa-se que foram alcançados resultados similares aos publicados em [Constantinou et al. 2013], em que a acurácia foi de 66,85%3. Os resultados podem ser comparáveis uma vez que se referem ao mesmo conjunto de partidas.
منابع مشابه
Processamento de Consultas XML usando Máquinas de Inferência
Resumo. Processamento de consultas XML sobre grandes bases de dados pode sofrer de problemas de desempenho. Em trabalhos anteriores, mostramos que algumas consultas XML, quando executadas usando uma máquina de inferência, são processadas mais rapidamente do que sua equivalente em XQuery. No entanto, para se beneficiar desse bom desempenho, é necessário traduzir consultas XML para a linguagem ló...
متن کاملAnálise do PCA Assimétrico para Detecção de Objetos em Imagens
Resumo—Este trabalho investiga o papel da análise de componentes principais e da análise de discriminante na classificação de padrões e expora seus problemas com classes assimétricas e/ou dados de treinamento desbalanceados, descrevendo o PCA assimétrico. Para avaliar o comportamento da abordagem assimétrica, emprega-se a tarefa de detecção de objetos em imagens com duas bases distintas (faces ...
متن کاملUma Abordagem para Armazenamento de Dados Semi-Estruturados em Bancos de Dados Relacionais
This paper presents an approach to storing semistructured data in relational databases. We focus on semistructured data as extracted from Web pages by a tool called DEByE (Data Extraction By Example), and organized according to its data model, the DEByE Object Model (DEByE-OM). The approach presented here consists in representing the structure of objects extracted by DEByE by a relational schem...
متن کاملSLADB: Acordo de Nível de Serviço para Banco de Dados em Nuvem
Computação em nuvem é uma tendência recente de tecnologia cujo objetivo é proporcionar serviços sob demanda com pagamento baseado no uso. Neste ambiente, a qualidade do serviço é uma característica fundamental que deve ser fornecida pelos provedores. Existem muitos modelos para acordo de nível de serviço em nuvem. Entretanto, estes modelos são muito gerais e não abordam características do geren...
متن کاملProcessamento de consultas na Web de Dados: uma abordagem para busca de fontes de dados relevantes
The adoption of Linked Data principles has contributed towards the creation of a Web of Data, allowing the development of applications and tools which run queries over available information. One of the main challenges for the query processing over the Web is the selection of relevant sources, i.e., sources which could contribute significantly to the result of a query. In this paper, we discuss ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2016